#GPU 路線圖
這份首次公開的架構路線圖,藏著中國國產GPU的技術底氣與成長邏輯
5.2萬片交付背後:國產GPU規模商業化進入“放量期”。在大模型浪潮席捲全球、算力成為核心競爭力的當下,國產高端晶片的進展備受矚目。尤其在生成式AI走向規模化應用之後,訓練效率、推理成本、系統穩定性,正在深度反作用於模型能力。僅是實驗室指標與參數競賽,不足回答市場對國產算力“能否真用、是否好用”的拷問。近日,國產通用GPU“四小龍”之一的天數智芯,在上市後的首次生態合作夥伴大會上,給出了一份系統性的回應——罕見地一次性亮出了三張關鍵“底牌”:1、首次完整公佈天樞、天璇、天璣、天權四代GPU架構路線圖,明確提出分階段對標並超越NVIDIA Hopper、Blackwell、Rubin架構的技術目標。該公司在2025年已經邁出第一步,天數天樞整體效率較當前行業最優水平提升約60%,在DeepSeek V3的實測中實現超20%的表現。2、正式推出“彤央”系列四款邊端GPU新品,實測稠密算力覆蓋100T—300T區間,性能指標全面超越NV AGX Orin;3、首次對外披露商業落地成果,截至目前已服務超300家客戶,完成1000餘次部署,累計交付通用GPU超5.2萬片。天數智芯董事長兼CEO蓋魯江在會上強調,AI算力需“以全端自研築牢生態根基”。此次發佈,這家國產GPU代表企業已不侷限於單點突破,而是試圖從技術路徑、完整產品和可複製商業化三個維度,建構一個更具確定性的產業未來。01.首發三年超越路線圖:國產通用GPU不止於“可用”與以往國產GPU企業更強調“當代產品對標”不同,天數智芯此次發佈的一大變化,就是給出了一個明確的時間維度。天數智芯首次系統性披露了2025-2027年的架構演進路線圖。在天數天樞、天數天璇、天數天璣、天數天權四大系列架構框架下,其技術目標被清晰地對應到國際主流GPU架構的代際節奏之中:2025年,天數天樞架構實現對輝達Hopper架構的超越;2026年,天數天璇架構對標Blackwell,同年天璣架構實現對其的全面超越;2027年,天數天權架構將超越下一代的Rubin架構。在此之後,公司的目標將轉向“突破性計算晶片架構”的原創性設計。這釋放了一個強烈訊號——天數智芯不再迴避與全球GPU技術主線的正面對照,而是將自身演進節奏直接嵌入到同一技術坐標系中。天數智芯AI與加速計算技術負責人單天逸認為,專用晶片就像應試教育,在限定的“題庫”裡去完成計算任務。而天數所代表的通用晶片是為了回歸計算本質,支援所有類型的計算。它既能高效支援的當前熱點任務,也能支援那些我們還沒想像到的全新算子、全新架構。“我們始終堅信,不應讓算力的僵化限制演算法進化,硬體絕不應該成為束縛演算法探索的枷鎖,而要成為孵化新演算法的堅實底座。”單天逸將天數晶片比作新世紀的“算力風洞”,意在為研究者探索智慧的本質與邊界提供基礎工具。為了實現這種面向未來的通用性與高效能,天數智芯在架構層面進行了系列創新。這一路線圖並非簡單的算力堆疊,而是圍繞通用計算效率的系統性最佳化展開:1、TPC Broadcast設計,算力的核心瓶頸是頻寬,天數智芯不單純放大頻寬,而是追求單位頻寬最優效果。當檢測到相同地址資料時,晶片內部Load Store單元避免無效訪問,在上游進行廣播,大幅降低快取功耗,等效提升快取頻寬,以更小功耗和面積實現同等功能。2、Instruction Co-Exec設計,實現多類指令平行運行,除Tensor Core、Vector Core外,新增Scalar Core及指數、通訊等操作,通過X-Schedule模組以最低成本提升多指令平行處理能力,從容適配MMA、各類算子及DeepSeek V4等模型。3、Dynamic Warp Scheduling設計,微架構可駐留更多Warp,通過動態調度實現Warp有序協作,避免資源爭搶與閒置,持續輸出算力。值得一提的是,這些技術並不是針對某一個模型或某一類負載的“定製化性能”,而是一種長期可擴展的通用GPU架構邏輯。對產業與投資界而言,這份路線圖的價值在於提供了難得的“可預期性”。它標誌著國產高端GPU的競爭,正從初期的“解決有無問題”和“單點性能比拚”,邁入一個有明確技術爬坡路徑、可被持續驗證的新階段。02.雲邊端全端落地:“彤央”系列補齊邊端算力拚圖如果說路線圖解決的是“向那裡走”的問題,那麼產品矩陣則決定了“如何走”。本次大會的另一重頭戲,是天數智芯正式發佈了其邊端算力產品系列——“彤央”(TY)。“彤央”系列一次性推出了四款新品:TY1000、TY1100、TY1100_NX和TY1200,覆蓋100T-300T的實測稠密算力區間。在多項關鍵指標上,這一系列產品已全面超越同等級的輝達AGX Orin。但相比性能數字本身,更值得關注的是彤央系列的產品定位邏輯。“彤央”系列並非簡單意義上的“算力下沉版GPU”。天數智芯邊端事業部負責人郭為談道,其產品定位是圍繞“物理AI”這一前沿趨勢進行系統級設計。所謂“物理AI”,即讓AI不僅“會說話”,更能“會幹活”,理解並反饋物理世界規律,這正是具身智慧型手機器人、高等級自動駕駛、智能工廠等場景的核心需求。以性能最強的TY1200為例,它不僅在緊湊的機身內容納了300TOPS的算力,更搭載了完整的異構算力調度框架,能夠充分協調CPU與GPU資源。這一特性使其能夠應用於“機器人大小腦融合”這類複雜場景——傳統上,機器人的運動控制(“小腦”)與感知決策(“大腦”)由不同模組處理,容易因通訊延遲導致動作不協調。TY1200的高整合度與強算力,為在一顆晶片上實現協同控制提供了可能。實測資料證明了其產品力。在電腦視覺、自然語言處理乃至DeepSeek-32B大語言模型等多個場景的測試中,彤央TY1000的性能表現均優於市場主流產品輝達AGX Orin。“彤央”系列還考慮到客戶已有硬體方案的替換成本問題。該系列全部採用標準化的699Pin介面設計,在硬體上與輝達Orin系列產品實現了“Pin-to-Pin”相容,從而極大降低替換成本。可以看到,通過統一的通用GPU架構、開放的軟體生態以及一致的開發介面,天數智芯試圖在“物理AI”趨勢尚未全面爆發之前,提前完成算力形態的卡位。至此,天數智芯已經形成了覆蓋雲端訓練(天垓)、推理(智鎧)以及邊端計算(彤央)的完整全端自研算力矩陣。在架構層、軟體層和系統層實現統一,使得模型可以在不同算力形態之間平滑遷移。值得一提的是,這種“全端自研”的能力並非沒有技術門檻。從單卡性能,到多卡互聯,再到千卡級叢集的穩定運行,每一層都涉及架構設計、驅動最佳化與系統工程能力的長期積累。天數智芯披露,其千卡級叢集已穩定運行超過1000天,驗證了其系統的成熟度。03.5.2萬片交付背後:國產GPU商業化放量任何一條技術路線,最終都必須接受商業化的檢驗。天數智芯此次發佈會的第三大焦點,便是首次體系化地公開了其規模化商業落地成果,以實實在在的資料回應了市場關於國產GPU“能否用好”的疑問。其披露的最新資料顯示,天數智芯已向金融、網際網路、醫療、交通、科研等超過20個行業的超300家客戶,完成了超過1000次行業部署,數千卡叢集穩定運行1000天。天數智芯副總裁鄒翾在演講中列舉了一系列案例:在網際網路領域,其產品幫助頭部客戶將AI客服的Token處理成本降低了一半;在金融行業,基於其加速卡的研報生成效率提升了70%,量化交易決策響應可達毫秒級;在醫療場景,結構化電子病歷的生成時間從數分鐘縮短至30秒,腸胃鏡病灶的AI輔助定位精度提升了30%。另一個優勢是敏捷的模型適配能力。面對國內大模型以“季度”為單位的迭代速度,天數智芯通過與主流模型團隊深度合作,實現了“多數大模型發佈當天即可跑通”。目前,其平台已支援超過150種模型及變種穩定運行。例如,從DeepSeek V3升級到V3.2,因其已預先支援95%的算子,客戶僅需調整不到2%的模型結構即可完成適配。這種廣泛的行業覆蓋與深度應用,反過來也錘煉了其產品與解決方案的成熟度。郭為在問答環節坦誠分享道,早期拓展市場時面臨更多的是客戶的“排斥與冷淡”,尤其是那些純粹基於性價比和穩定性做選擇的商業客戶。破局之道在於“技術實力”。只要客戶願意嘗試,工程師便快速進場,通過深度調優呈現超出預期的性能,逐步建立信任。他甚至透露,一些深度合作的客戶在兩年內通過反饋機制提出了數百個問題或建議,這些來自真實場景的“壓力測試”和需求輸入,成為了產品迭代升級最寶貴的動力。在GPU競爭中,生態始終是決定成敗的核心壁壘。天數智芯對此有著清醒認知,其將“易遷移”作為核心競爭力之一,在軟體介面層深度相容CUDA等主流開發生態,支援PyTorch等主流框架,儘量避免客戶為遷移付出額外學習成本。從其商業化放量的財務資料看,2022-2024年,營收從1.894億元增長至5.395億元,復合年增長率高達68.8%;2025年上半年營收達3.243億元,同比增長64.2%。這些財務數字背後,是一個已經跑通並進入放量增長階段的商業閉環。04.結語:算力競爭正在回歸長期主義回顧整場發佈會,天數智芯反覆強調的關鍵詞並非“替代”,而是“賦能者”。其通用GPU架構已相容PyTorch、xllm等主流框架,支援150余種模型穩定運行;在實際項目中,開發與遷移成本僅為部分競品的三分之一;並已完成與主流CPU、伺服器廠商及雲平台的系統級適配。在智能社會逐步成型的過程中,真正稀缺的,並不是某一代晶片的峰值性能指標,而是一個能夠持續支撐演算法演進、應用擴展與產業規模化的底層算力平台。從清晰的路線圖,到完整的產品矩陣,再到正在放量的商業化資料,天數智芯正在給出一種更偏長期主義、也更具產業確定性的答案。國產GPU“行不行”,或許不再需要一句口號式回應,而正在被一項項工程進展與商業結果,逐步寫入現實。 (芯東西)
B300來了!輝達GPU 路線圖曝光!
輝達 B300 提前生產 法人看旺台積電、廣達等供應鏈輝達B300晶片生產進度提前至5月,採用台積電5奈米家族及CoWoS-L先進封裝,沿用Bianca架構 。其有望年底量產,將帶動台積電、牧德等供應鏈發展。因H20受限,B300填補產能,且裝置進機加速,法人看好相關企業獲利及出貨表現。輝達 GPU 產品路線圖輝達最新 B300 晶片生產進度提前至 5 月起跑,供應鏈消息透露,B300 採用台積電 5 奈米家族及 CoWoS-L 先進封裝,沿用輝達先前 Bianca 架構,零元件、ODM 代工學習曲線得以延續,輝達有望實現 GB300 於今年底進入量產。法人預估,將帶旺台積電、牧德、穎崴、健策及組裝廠廣達、緯創及鴻海等相關供應鏈。外界推測,由於 H20 喊卡,採用 5 奈米家族之 B300 補上產能空缺,而 Blackwell 架構已有 B200 量產經驗,能快速因應。供應鏈指出,搭配南科先進封裝 AP8 於 4 月初開始進機,為的就是要接續 B300 所要用到的 CoWoS-L 封裝,客戶需求殷切,推著台積電在產能快速建置;相關裝置業者表示,今年大客戶拉貨並沒有延後或變更,很大部分來自 CoWoS-L。輝達首席科學家 Bill Dally 於台積電北美技術論壇提到,B200 晶片以 CoWoS 封裝兩個 GPU,突破單一 Reticle Size(光罩尺寸)限制。半導體業者分析,台積電正在延伸各種先進封裝技術,透過加大封裝尺寸堆疊更多電晶體,突破摩爾定律限制。法人指出,牧德今年 2 月推出 CoWoS 六面檢測機,用於自動光學檢測,攜手夥伴鏵友益搶食海外大廠市佔;穎崴 AI GPU 晶片測試需求也會提前熱身,其中,高階同軸測試座與 MEMS 探針卡出貨將提升整體獲利表現。ODM 業者分析,GB300 運算托盤沿用 GB200 設計,其實更有利加快組裝進度,因為設計複雜、量產難度高,若能維持原設計,將加快 ODM 大廠出貨速度;對健策在內的零元件業者也會是好消息。目前未能掌握 B300 晶片是否會在亞利桑那州廠同步生產;半導體業者分析,由於美國仍缺乏 CoWoS-L 封裝能力,因此即便在美國生產,仍必須要回台灣進行後段處理。但對輝達而言,最新 AI GPU 在美國生產,會是呼應總統川普 MAGA 最有力證明。推測輝達執行長黃仁勳將會在 Computex 2025 將 AI GPU 順利量產作為好消息,此外亦會帶來更多在機器人領域相關的應用,並與台灣合作夥伴如聯發科再推新菜。 (芯榜)
輝達最新GPU與互聯路線圖
在運算、網路和圖形發展史上,Nvidia 有許多獨特之處。但其中之一就是它目前手頭上有如此多的資金,而且由於其架構、工程和供應鏈,它在生成式人工智慧市場處於領先地位,因此它可以隨心所欲地實施它認為可能取得進展的任何路線圖。 到21 世紀,Nvidia 已經是一個非常成功的創新者,它實際上沒有必要擴展到資料中心運算領域。但HPC 研究人員將Nvidia 帶入了加速運算領域,然後AI 研究人員利用GPU 運算創造了一個全新的市場,這個市場已經等待了四十年,希望以合理的價格實現大量計算,並與大量數據碰撞,真正讓越來越像思考機器的東西成為現實。 向Danny Hillis、Marvin Minksy 和Sheryl Handler 致敬,他們在20 世紀80 年代嘗試製造這樣的機器,當時他們創立了Thinking Machines 來推動AI 處理,而不是傳統的HPC 模擬和建模應用程序,以及Yann LeCun,他當時在AT&T 貝爾實驗室創建了卷積神經網路。他們既沒有數據,也沒有計算能力來製造我們現在所知的AI。當時,Jensen Huang 是LSI Logic 的董事,該公司生產儲存晶片,後來成為AMD 的CPU 設計師。就在Thinking Machines 在20 世紀90 年代初陷入困境(並最終破產)時,黃仁勳在聖何塞東側的Denny’s 與Chris Malachowsky 和Curtis Priem 會面,他們創立了Nvidia。正是Nvidia 看到了來自研究和超大規模社區的新興人工智慧機遇,並開始構建系統軟體和底層大規模並行硬件,以實現自第一天起就一直是計算一部分的人工智慧革命夢想。 這一直是計算的最終狀態,也是我們一直在走向的奇點——或者可能是兩極。如果其他星球上有生命,那么生命總會進化到這樣一個地步:那個世界擁有大規模毀滅性武器,並且總是會創造出人工智慧。而且很可能是在同一時間。在那一刻之後,那個世界對這兩種技術的處理方式決定了它是否能在大規模滅絕事件中倖存下來。